La IA todavía no sirve para trabajar: un nuevo test suspende a todos los modelos en tareas de oficina reales

La IA todavía no sirve para trabajar: un nuevo test suspende a todos los modelos en tareas de oficina reales

por Edgar Otero

Han pasado casi dos años desde que las grandes figuras de la tecnología predijeron el reemplazo inminente del trabajo intelectual por la inteligencia artificial. Se esperaba que numerosos profesionales, especialmente los que trabajan en una oficina y frente a un ordenador, fueran sustituidos por algoritmos. No obstante, esa revolución se está retrasando más de lo previsto. Un nuevo estudio de Mercor, del cual se hace eco TechCruch, gigante de los datos de entrenamiento, arroja luz sobre este estancamiento con un nuevo estándar de medición: APEX-Agents.

Esta investigación ha sometido a los modelos de lenguaje más avanzados a tareas reales extraídas del día a día de la consultoría, la banca y el derecho. A diferencia de los tests sintéticos habituales, aquí se simuló un entorno profesional completo. La IA no recibía toda la información en un solo mensaje, sino que debía rastrearla y correlacionarla a través de imitaciones de Slack, Google Drive y otras herramientas corporativas.

El resultado ha sido un suspenso generalizado. Incluso las herramientas más potentes del mercado fueron incapaces de responder correctamente a más de una cuarta parte de las solicitudes planteadas por profesionales reales. La gran mayoría de las veces, los agentes devolvieron respuestas erróneas o simplemente se quedaron en blanco ante la complejidad de cruzar datos de múltiples fuentes. El hecho de que se trate de un benchmark nuevo, para el cual los modelos no han podido ser entrenados, y con una metodología que simula entornos reales, tiene mucho que ver en este suspenso generalizado.

Gemini 3 Flash y GPT-5.2 lideran un ranking de suspensos

La principal barrera detectada es la dificultad de los modelos para realizar un razonamiento multidominio. En la vida real, un empleado no recibe todo el contexto en bandeja, sino que debe buscarlo. Brendan Foody, CEO de Mercor, compara el estado actual de la tecnología con tener un "becario que acierta el 25% de las veces". Aunque reconoce que es una mejora notable respecto al 5% o 10% del año anterior, la fiabilidad sigue siendo insuficiente para el entorno corporativo.

En la clasificación técnica del estudio, el modelo Gemini 3 Flash obtuvo el "mejor" resultado con una precisión del 24%, seguido muy de cerca por GPT-5.2 con un 23%. Curiosamente, otros modelos más potentes, como Opus 4.5, Gemini 3 Pro y GPT-5, se quedaron estancados en torno al 18%.

Un ejemplo de la dificultad de la prueba incluía determinar si la exportación de unos registros de servidores cumplía con las leyes de privacidad de la UE y las políticas internas de una empresa ficticia. Una tarea que requiere juicio y contexto, y que demuestra que, por ahora, el criterio humano sigue siendo insustituible en tareas de alto valor. Parece que otras previsiones, como las de la consultora Gartner, se van confirmando.

Fin del Artículo. ¡Cuéntanos algo en los Comentarios!

Redactor del Artículo: Edgar Otero

Edgar Otero

Soy técnico en sistemas informáticos, empecé a experimentar un Pentium II, aunque lo mío siempre ha sido el software. Desde que actualicé de Windows 95 a Windows 98 no he dejado de instalar sistemas. Tuve mi época Linuxera y fui de los que pidió el CD gratuito de Canonical. Actualmente uso macOS para trabajar y tengo un portátil con Windows 11 en el que también he instalado Chrome OS Flex. En definitiva, experimentar, probar y presionar botones.

Comentarios y opiniones sobre: La IA todavía no sirve para trabajar: un nuevo test suspende a todos los modelos en tareas de oficina reales ¿Qué opinas? ¿Alguna pregunta?